With the attention mechanism, transformers achieve significant empirical successes. Despite the intuitive understanding that transformers perform relational inference over long sequences to produce desirable representations, we lack a rigorous theory on how the attention mechanism achieves it. In particular, several intriguing questions remain open: (a) What makes a desirable representation? (b) How does the attention mechanism infer the desirable representation within the forward pass? (c) How does a pretraining procedure learn to infer the desirable representation through the backward pass? We observe that, as is the case in BERT and ViT, input tokens are often exchangeable since they already include positional encodings. The notion of exchangeability induces a latent variable model that is invariant to input sizes, which enables our theoretical analysis. - To answer (a) on representation, we establish the existence of a sufficient and minimal representation of input tokens. In particular, such a representation instantiates the posterior distribution of the latent variable given input tokens, which plays a central role in predicting output labels and solving downstream tasks. - To answer (b) on inference, we prove that attention with the desired parameter infers the latent posterior up to an approximation error, which is decreasing in input sizes. In detail, we quantify how attention approximates the conditional mean of the value given the key, which characterizes how it performs relational inference over long sequences. - To answer (c) on learning, we prove that both supervised and self-supervised objectives allow empirical risk minimization to learn the desired parameter up to a generalization error, which is independent of input sizes. Particularly, in the self-supervised setting, we identify a condition number that is pivotal to solving downstream tasks.
translated by 谷歌翻译
与置换不变的代理框架的合作多元化学习(MARL)在现实世界应用中取得了巨大的经验成功。不幸的是,由于许多代理商的诅咒以及对现有作品中的关系推理的有限探索,对这个MARL问题的理论理解缺乏。在本文中,我们验证了变压器是否实现了复杂的关系推理,并提出和分析了与变压器近似器的无模型和基于模型的离线MARL算法。我们证明,基于模型和基于模型的算法的次级次数差距分别与代理数量分别独立于和对数,这减轻了许多试剂的诅咒。这些结果是变压器的新概括误差结合的结果以及对变压器系统动力学的最大似然估计(MLE)的新分析。我们的基于模型的算法是第一个明确利用代理的置换不变性的可证明有效的MARL算法。
translated by 谷歌翻译
一场堆放堡拥堵游戏(SCG)是一个双重计划,领导者的目标是通过预测和操纵均衡状态来最大程度地提高自己的收益,在该状态下,追随者通过玩拥堵游戏而定居。大规模的SCG以其顽固性和复杂性而闻名。这项研究通过可区分的编程来处理SCG,该编程将机器学习的最新发展与常规方法结合在一起。核心思想以模仿logit动力学形成的进化路径代表低级平衡问题。它可以在朝着平衡的演化路径上使用自动分化,从而导致双环梯度下降算法。我们进一步表明,对低级平衡的固定可能是一个自我强加的计算障碍。取而代之的是,领导者只能沿着追随者的演变路径向前看几个步骤,同时通过共同进化过程更新其决策。启示产生了一种单循环算法,该算法在记忆消耗和计算时间方面都更有效。通过涵盖广泛基准问题的数值实验,我们发现单循环算法始终达到解决方案质量和效率之间的良好平衡,不仅优于标准的双环实现,而且优于文献中的其他方法。重要的是,我们的结果既突出了“充分期待”的浪费和“零预期”的危险。如果需要快速启发术来解决一个非常大的SCG,则提议的单环算法具有一步的外观,使其成为理想的候选人。
translated by 谷歌翻译
机器人正在集成更大尺寸的模型以丰富功能并提高准确性,从而导致控制力计算压力。因此,机器人在计算功率和电池容量中遇到瓶颈。雾或云机器人技术是解决这些问题的最期待的理论之一。云机器人技术的方法已从系统级到节点级别开发。但是,当前的节点级系统不够灵活,无法动态适应变化的条件。为了解决这个问题,我们提出了Elasticros,该Elasticros将当前的节点级系统演变为算法级别。 Elasticros基于ROS和ROS2。对于FOG和Cloud Robotics,它是第一个具有算法级协作计算的机器人操作系统。 Elasticros开发弹性协作计算,以实现对动态条件的适应性。协作计算算法是Elasticros的核心和挑战。我们抽象问题,然后提出一种称为Elasaction的算法以解决。这是一种基于在线学习的动态行动决策算法,它决定了机器人和服务器的合作方式。该算法会动态更新参数,以适应机器人当前所在的条件的变化。它根据配置将计算任务的弹性分配到机器人和服务器上。此外,我们证明了弹性的遗憾上限是sublinear,它保证了其收敛性,因此使Elasticros在其弹性上保持稳定。最后,我们对机器人技术的常见任务进行了Elasticros进行实验,包括SLAM,GRASPING和HUMAN-OBOT对话,然后在延迟,CPU使用和功耗中测量其性能。算法级弹性弹性的性能明显优于当前的节点级系统。
translated by 谷歌翻译
机器人操作系统(ROS)为涉及生产任务,提高生产力和简化人类运营的各个领域的自动化带来了极大的自动化潜力。但是,ROS高度依赖交流,但缺乏安全的数据共享机制。确保多机器人之间的机密数据交换在多机器人交互中提出了重大挑战。在本文中,我们介绍了Authros,这是一个安全且方便的授权框架,用于ROS节点,具有绝对安全性和基于私人以太坊网络和SM算法的高可用性。据我们所知,Authros是装有ROS的机器人的第一个安全数据共享框架。该框架可以满足ROS节点之间交换机密数据的不可变性和安全性的要求。此外,提出了授权和身份验证的机制,以在没有第三方的情况下进行原子执行以确保值得信赖的数据交换。 SM2密钥交换和SM4授权加密机制均已提出用于数据传输安全性。还实施了数据摘要上传方案,以提高以太坊网络上数据查询和上传的效率。实验结果表明,它可以从6.34ms的800KB加密数据中生成摘要。通过安全分析,Authros实现了安全的数据交换,数据操作检测和节点锻造攻击保护。
translated by 谷歌翻译
Are extralinguistic signals such as image pixels crucial for inducing constituency grammars? While past work has shown substantial gains from multimodal cues, we investigate whether such gains persist in the presence of rich information from large language models (LLMs). We find that our approach, LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods on the task of unsupervised constituency parsing, achieving state-of-the-art performance on a variety of datasets. Moreover, LC-PCFG results in an over 50% reduction in parameter count, and speedups in training time of 1.7x for image-aided models and more than 5x for video-aided models, respectively. These results challenge the notion that extralinguistic signals such as image pixels are needed for unsupervised grammar induction, and point to the need for better text-only baselines in evaluating the need of multi-modality for the task.
translated by 谷歌翻译
在许多GNN结构中,采样是一个重要的过程,以训练具有较小计算复杂性的较大数据集。但是,与GNN中的其他过程相比(例如骨料,向后传播),抽样过程仍然花费巨大的时间,这限制了训练速度。为了减少抽样时间,硬件加速度是理想的选择。但是,最新的GNN加速度提案未指定如何加速采样过程。更重要的是,直接加速传统抽样算法将使加速器的结构变得非常复杂。在这项工作中,我们做出了两个贡献:(1)提出了一个新的邻居采样器:Concat Sampler,可以在硬件级别上轻松加速,同时保证测试准确性。(2)基于FPGA设计了一个Concat-Smpliper-Accelerator,与没有它的采样过程相比,邻居采样过程的提高速度约为300-1000倍。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
我们呈现LSEG,这是一种用于语言驱动语义图像分割的新模型。 LSEG使用文本编码器来计算描述性输入标签(例如,“草”或“构建”)的嵌入式,以及基于变压器的图像编码器,该图像编码器计算输入图像的密度每个像素嵌入。图像编码器具有对比度目标,以将像素嵌入对准对应语义类的文本嵌入。文本嵌入式提供了一种灵活的标签表示,其中将语义相似的标签映射到嵌入空间中的类似区域(例如,“猫”和“毛茸茸”)。这允许LSEG概括到以前在测试时间的预先看不见的类别,而不会再培训或甚至需要单一的额外训练样本。我们展示了与现有的零点和少量拍摄语义分割方法相比,我们的方法实现了高竞争激烈的零射性能,甚至在提供固定标签集时符合传统分段算法的准确性。代码和演示可在https://github.com/isl-org/lang-seg获取。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译